Many business workflows require extracting important fields from form-like documents (e.g. bank statements, bills of lading, purchase orders, etc.). Recent techniques for automating this task work well only when trained with large datasets. In this work we propose a novel data augmentation technique to improve performance when training data is scarce, e.g. 10-250 documents. Our technique, which we call FieldSwap, works by swapping out the key phrases of a source field with the key phrases of a target field to generate new synthetic examples of the target field for use in training. We demonstrate that this approach can yield 1-7 F1 point improvements in extraction performance.
translated by 谷歌翻译
When reading a story, humans can rapidly understand new fictional characters with a few observations, mainly by drawing analogy to fictional and real people they met before in their lives. This reflects the few-shot and meta-learning essence of humans' inference of characters' mental states, i.e., humans' theory-of-mind (ToM), which is largely ignored in existing research. We fill this gap with a novel NLP benchmark, TOM-IN-AMC, the first assessment of models' ability of meta-learning of ToM in a realistic narrative understanding scenario. Our benchmark consists of $\sim$1,000 parsed movie scripts for this purpose, each corresponding to a few-shot character understanding task; and requires models to mimic humans' ability of fast digesting characters with a few starting scenes in a new movie. Our human study verified that humans can solve our problem by inferring characters' mental states based on their previously seen movies; while the state-of-the-art metric-learning and meta-learning approaches adapted to our task lags 30% behind.
translated by 谷歌翻译
Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
联合学习(FL)是一种机器学习范式,允许分散的客户在不共享其私人数据的情况下进行协作学习。但是,过度的计算和沟通要求对当前的FL框架构成挑战,尤其是在训练大型模型时。为了防止这些问题阻碍FL系统的部署,我们提出了一个轻巧的框架,客户共同学习融合由多个固定预训练的模型生成的表示形式,而不是从SCRATCH培训大型模型。这通过考虑如何从预先训练的模型中捕获更多特定于客户的信息,并共同提高每个客户利用这些现成模型的能力,从而导致我们解决了一个更实用的FL问题。在这项工作中,我们设计了一种联合原型对比度学习(FEDPCL)方法,该方法通过其类原型共享客户的知识,并以原型对比度方式构建特定于客户的表示。共享原型而不是可学习的模型参数可以使每个客户以个性化的方式融合表示表示,同时以紧凑的形式保持共享知识以进行有效的通信。我们在轻量级框架中对拟议的FEDPCL进行了彻底的评估,以测量和可视化其在流行的FL数据集上融合各种预训练模型的能力。
translated by 谷歌翻译
情感双对提取(ECPE)是情感原因分析中的一项新任务,它从情感文档中提取潜在的情感因子对。最近的研究使用端到端方法来应对ECPE任务。但是,这些方法要么患有标签稀疏问题,要么无法模拟情绪与原因之间的复杂关系。此外,他们都不考虑条款的明确语义信息。为此,我们将ECPE任务转换为文档级机器阅读理解(MRC)任务,并提出了具有重新INK机制(MM-R)的多转移MRC框架。我们的框架可以模拟情绪和原因之间的复杂关系,同时避免产生配对矩阵(标签稀疏问题的主要原因)。此外,多转弯结构可以融合情绪和原因之间的明确语义信息流。关于基准情绪的广泛实验导致语料库证明了我们提出的框架的有效性,该框架的表现优于现有的最新方法。
translated by 谷歌翻译
联邦学习(FL)提供了有希望的分布式学习范式,因为它试图通过不共享其私人培训数据来保护用户隐私。但是,最近的研究表明,FL容易受到模型反转攻击的影响,该攻击可以通过窃听共享梯度来重建用户的私人数据。现有的防御解决方案无法在更强烈的攻击中生存,并且在隐私和绩效之间表现不佳。在本文中,我们提出了一种直接而有效的防御策略,基于与隐藏数据相混淆敏感数据的梯度。具体而言,我们在迷你批次中更改一些样品,以模仿梯度水平的敏感数据。使用梯度投影技术,我们的方法试图在不牺牲FL性能的情况下模糊敏感数据。我们广泛的评估表明,与其他防御能力相比,我们的技术在保留FL性能的同时提供了最高水平的保护。我们的源代码位于存储库中。
translated by 谷歌翻译
建立一个对话体现的代理执行现实生活任务一直是一个长期而又具有挑战性的研究目标,因为它需要有效的人类代理沟通,多模式理解,远程顺序决策等。传统的符号方法具有扩展和概括问题,而端到端的深度学习模型则遭受数据稀缺和高任务复杂性的影响,并且通常很难解释。为了从两全其美的世界中受益,我们提出了一个神经符号常识性推理(JARVIS)框架,用于模块化,可推广和可解释的对话体现的药物。首先,它通过提示大型语言模型(LLM)来获得符号表示,以了解语言理解和次目标计划,并通过从视觉观察中构建语义图。然后,基于任务和动作级别的常识,次目标计划和行动生成的符号模块。在Teach数据集上进行的大量实验验证了我们的JARVIS框架的功效和效率,该框架在所有三个基于对话框的具体任务上实现了最新的(SOTA)结果,包括对话记录(EDH)的执行,对话框的轨迹, (TFD)和两个代理任务完成(TATC)(例如,我们的方法将EDH看不见的成功率从6.1 \%\%提高到15.8 \%)。此外,我们系统地分析了影响任务绩效的基本因素,并在几个射击设置中证明了我们方法的优越性。我们的Jarvis模型在Alexa奖Simbot公共基准挑战赛中排名第一。
translated by 谷歌翻译
细颗粒实体打字(FET)旨在推断本文中提及的特定语义类型。 FET的现代方法主要集中于学习某种类型的外观。很少有作品直接建模类型差异,也就是说,让模型知道一种类型与其他类型不同的程度。为了减轻这个问题,我们提出了一种富含类型的FET的分层对比策略。我们的方法可以直接建模层次类型之间的差异,并提高区分多元类似类型的能力。一方面,我们将类型嵌入到实体上下文中,以使类型的信息直接感知。另一方面,我们在层次结构上设计了一个约束的对比策略,以直接建模类型差异,这可以同时感知不同粒度下类型之间的区分性。 BBN,Ontonotes和Figer的三个基准测试的实验结果表明,我们的方法通过有效建模类型差异在FET上实现了显着性能。
translated by 谷歌翻译
我们建议探索一个称为视听分割(AVS)的新问题,其中的目标是输出在图像帧时产生声音的对象的像素级映射。为了促进这项研究,我们构建了第一个视频分割基准(AVSBENCH),为声音视频中的声音对象提供像素的注释。使用此基准测试了两个设置:1)具有单个声源的半监督音频分割和2)完全监督的音频段段,并带有多个声源。为了解决AVS问题,我们提出了一种新颖的方法,该方法使用时间像素的视听相互作用模块注入音频语义作为视觉分割过程的指导。我们还设计正规化损失,以鼓励训练期间的视听映射。 AVSBench上的定量和定性实验将我们的方法与相关任务中的几种现有方法进行了比较,这表明所提出的方法有望在音频和像素视觉语义之间建立桥梁。代码可从https://github.com/opennlplab/avsbench获得。
translated by 谷歌翻译
在药物发现中,具有所需生物活性的新分子的合理设计是一项至关重要但具有挑战性的任务,尤其是在治疗新的靶家庭或研究靶标时。在这里,我们提出了PGMG,这是一种用于生物活化分子产生的药效团的深度学习方法。PGMG通过药理的指导提供了一种灵活的策略,以使用训练有素的变异自动编码器在各种情况下生成具有结构多样性的生物活性分子。我们表明,PGMG可以在给定药效团模型的情况下生成匹配的分子,同时保持高度的有效性,独特性和新颖性。在案例研究中,我们证明了PGMG在基于配体和基于结构的药物从头设计以及铅优化方案中生成生物活性分子的应用。总体而言,PGMG的灵活性和有效性使其成为加速药物发现过程的有用工具。
translated by 谷歌翻译